3. Données individuelles. points aberrants.

1) On donne ci-dessous les paramètres statistiques des quatre variables :

 

Minimum

Maximum

Moyenne

Variance

Ecart type

âge

27

51

37.9

55.09

7.42226

revenu

99

250

162.4

1383.84

37.20000

patrimoine

450

1500

1152

107936

328.53615

emprunt

120

600

320

19520

139.71399

 

Le calcul des valeurs minimum, maximum, et des moyennes ne pose aucun problème. Pour calculer les variances, on peut procéder de deux façons différentes à l’aide des tableaux donnés :

·           la variance de la série (xi) est la moyenne des carrés des écarts à la moyenne : on calcule la somme des termes de la forme (x-mx)2, on divise par l’effectif. Pour l’âge, on obtient :

s2 = 550.9/10 = 55.09

·           la variance est la moyenne des carrés moins le carré de la moyenne. Pour l’âge, on obtient :

s2 = 14915/10 - 37.92 = 1491.5 - 1436.41 = 55.09

Les tableaux de calculs permettent aussi de détecter les individus statistiques particuliers : lorsque le carré de la forme (x – mx)2 est particulièrement élevé, la valeur x est très différente de la moyenne mx et augmente la variance (par exemple, pour l’âge, les individus de rangs 5, 7 et 8).

 

2) Dans chacune des deux représentations graphiques ci-dessous, nous avons choisi comme origine des axes le point moyen. Chaque client est représenté par son rang et les nombres en italiques donnent les échelles sur les axes.

La première représentation graphique montre que le coefficient de corrélation linéaire entre les variables âge et revenu est positif. Les points ne sont pas très proches d’une droite, et le coefficient est de l’ordre de 0.5. Le client de rang 1 est plus âgé que la moyenne et bénéficie du revenu maximum. Ce point particulier n’est pas ici aberrant parce qu’il contribue à la relation générale entre l’âge et le revenu.


 

                               250kF                  1

                                  ­revenu

                                  |

                                  |

                                  |

                                  |

                                  |

                                  |

                                  |

                                  |

                           4      |

                      10          | 6                                51 ans

---------------------------------3-------------------------------------âge>

27 ans        9              (37.9,162.4)                    2            8

                                  |

                                  |

                                  |

                                  |

7                                 |

                                  |

                                  |

    5                             |

                                99 kF

Représentation graphique des couples (âge, revenu)

Dans la représentation des couples (patrimoine,emprunt), on dénombre 6 observations sur 10 dans les quadrants II et IV, dont le patrimoine et l’emprunt sont donc simultanément supérieurs et inférieurs aux moyennes ou inversement. Le coefficient de corrélation devrait être légèrement négatif.

                                                600kF       1

                                                  ­emprunt

                                                  |

                                                  |

                                                  |

                                                  |

                                                  |

                                                 2|

                                                  |

5                                                 |

                           3                      |

                                                  |                       9

------------------------------------------------------------8----patrimoine

450kF                                           (1152,320)           1500kF

                                                  |

                     4                            |

                                                  |

                                                  |

                                                  |               10

                                                  |                7

                                                  |

                                                  120kF            6

Représentation graphique des couples (patrimoine, emprunt)

 


3) Les tableaux donnés permettent de calculer les coefficients de corrélation et de détecter les points influents et aberrants.

Rappelons que lorsque le produit de la forme (x-mx)(y-my) est particulièrement élevé en valeur absolue, le couple (x,y) est un point influent ou aberrant dans la relation entre x et y. Plus précisément :

·           il est influent si le produit est du même signe que le coefficient de corrélation ;

·           il est aberrant dans le cas contraire (par exemple,  l’individu de rang 1 pour la liaison entre le revenu et l’emprunt).

 

La moyenne de la dernière colonne de chaque tableau donne par définition la covariance. On peut aussi calculer cette dernière comme la moyenne des produits moins le produit des moyennes. On trouve pour l’âge et le revenu :

cov(x,y) = 160.14

Le coefficient de corrélation r(x,y) est obtenu par le rapport cov(x,y)/[sx sy]. On trouve :

r(x,y) = 160.14 / (7.42226 x 37.2)

 

le coefficient de corrélation entre l’âge et le revenu est : r(x, y) = 0.57999

 

Considérons maintenant la liaison entre le revenu (x) et l’emprunt (y) (tableau 2). La plupart des produits de la forme (x-mx)(y-my) sont négatifs, en particulier le produit de rang 5.

Le client de rang 1, dont le produit du type (x-mx)(y-my) est positif et particulièrement élevé, peut être qualifié d’aberrant parce qu’il s’oppose fortement à la relation générale constatée.

Le client 7 s’oppose aussi à la relation générale : nous ne le qualifions pas d’aberrant parce qu’il n’est pas suffisamment différent des autres.

Sans ces deux clients, le coefficient de corrélation entre le revenu et l’emprunt serait vraisemblablement négatif.

On termine le calcul du coefficient de corrélation en déduisant du tableau précédent les sommes et les moyennes, puis le coefficient de corrélation.

On a:

                            cov(x,y ) = 2237            r(x,y) = 2237/(37.2 x 139.714) = 0.43

Le coefficient de corrélation entre le revenu et l’emprunt est assez élevé :

 

Le coefficient de corrélation entre le revenu et l’emprunt est :

r(x, y) = 0.4304108

 

On calcule de la même façon le coefficient entre le patrimoine et l’emprunt : on trouve r(x,y) = -0.255, ce qui correspond à la valeur supposée après étude de la représentation graphique. La matrice de corrélation complète est donc :

 

 

 

âge

revenu

patrimoine

emprunt

âge

1

 

 

 

revenu

0.580

1

 

 

patrimoine

0.193

0.345

1

 

emprunt

0.419

0.430

-0.255

1

 

On notera que pour 10 individus, ces coefficient ne sont pas spécialement différents de 0, la valeur limite donnée dans la table étant de 0.6021.

 

4) Nous donnons ci-dessous la représentation graphique des couples (revenu,emprunt). Les clients de rang 1 et 7 apparaissent seuls dans les quadrants I et III, et le premier est particulièrement excentré.

                             600kF

                               ­emprunt                                   1

                               |

                               |

                               |

                               |

                               |

                               |

                             2 |

                               |

5                              |

                               3

                          9    |

-----------------------------8-*-------------------------------------revenu

99kF                     (162.4,320)                                  250kF

                               |

                               |    4

                               |

                               |

                               | 10

         7                     |

                               |

                            120kF 6

Représentation graphique des couples (revenu, emprunt)

 

En enlevant des données le client de rang 1, on peut recalculer les moyennes, les variances et le coefficient de corrélation. Il suffit de modifier les sommes données dans les tableaux. Le nouveau coefficient de corrélation entre le revenu et l’emprunt est alors égal à :

 

r(x, y) = -0.204

La présence d’une unité statistique aberrante peut ainsi modifier considérablement le coefficient de corrélation. Son retrait des données permet de constater son influence sur les paramètres statistiques.La méthode est classique et est appelée “méthode du jackknife”, mais elle ne conduit pas toujours à une “meilleure” estimation du coefficient de corrélation.

On s’efforce en fait dans la pratique d’expliquer la présence d’une valeur aberrante : erreur de saisie de donnée par exemple, ou d’expliquer pourquoi les valeurs sont sans rapport avec les autres. Dans l’exercice traité, il faudrait consulter le dossier du client de rang 1 pour trouver les raisons de sa particularité.